{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "deletable": true,
    "editable": true
   },
   "source": [
    "# 統計学\n",
    "\n",
    "[基礎としての統計学](https://www.slideshare.net/matsukenbook/ss-53235145)\n",
    "\n",
    "* 統計学の二つの目的\n",
    "    * 記述統計\n",
    "        * 手元のデータを要約する\n",
    "    * 推測統計\n",
    "        * サンプル(標本)から全体(母集団)を推測する\n",
    "* グラフ\n",
    "    * ヒストグラム\n",
    "        * ある幅に入っているデータの個数(度数)を、棒の縦の長さで表したグラフ\n",
    "        * 面積が度数と比例するように描く\n",
    "    * 箱ヒゲ図\n",
    "        * 最小値、25%点、50%点、75%点、最大値、外れ値\n",
    "            * 外れ値\n",
    "            * Q1(25%点) - 1.5 * IQRより小さい\n",
    "            * Q2(75%点) + 1.5 * IQRより大きい\n",
    "    * 散文図(+回帰分析)\n",
    "    * 時系列グラフ(2軸グラフ)\n",
    "        * 株価、為替など\n",
    "* 基本統計量\n",
    "    * 代表値 (分布全体を一つの数で表したもの。全体を特徴づける値。)\n",
    "        * 平均値\n",
    "            * データを全部足し合わせてデータの数で割る\n",
    "            * $ \\overline{x} = \\frac{1}{N}\\sum^{N}_{i=1} x_{i} $\n",
    "            * 特徴\n",
    "                * 全ての値が考慮される\n",
    "                * 極端な値があった場合それを考慮してしまい影響が大きい\n",
    "        * 中央値\n",
    "            * 数値を小さい方から並べたときに、真ん中に来るもの\n",
    "            * 特徴\n",
    "                * 極端な値があってもあまり影響を受けない\n",
    "                * ピンポイントで真ん中だけを表しているのでデータ全体の変化の比較には向かない\n",
    "                    * 50, 70, 90 -> 中央値70\n",
    "                    * 50, 70, 100 -> 中央値70\n",
    "                        * 90 -> 100が考慮されていない\n",
    "                    * 50, 70, 90 -> 中央値70\n",
    "                    * 45, 75, 85 -> 中央値75\n",
    "                        * 中央値は70 -> 75と上がっているが、他の値は下がっているが考慮されない\n",
    "\n",
    "        * 最頻値\n",
    "            * 一番個数が多いもの\n",
    "            * 特徴\n",
    "                * 極端な値があってもあまり影響を受けない\n",
    "                * データ数の多い場合でしか使えない\n",
    "                    * どの値も1回しか出てこないのであれば、「一番個数が多いもの」は意味を成さない\n",
    "                * 区間の区切り方で値が変わる\n",
    "        * きれいに左右対称に分布している場合は平均値、中央値、最頻値とも同じになる\n",
    "        * それぞれに特徴があるが、平均値が代表値として選ばれることが多い\n",
    "            * 基本的には**平均値と中央値を比較して大きくずれていなければ平均値を採用する**という方針が良い\n",
    "        * 参考\n",
    "            * http://math.nakaken88.com/textbook/basic-mean-median-mode/\n",
    "    * 散布度 (データの散らばりの程度を数値化したもの)\n",
    "        * 偏差 (**各データの平均値からの差**のこと)\n",
    "            * $ x_{i} - \\overline{x} $\n",
    "            * 平均偏差\n",
    "                * $ \\frac{1}{N}\\sum^{N}_{i=1} | x_{i} - \\overline{x} | $\n",
    "                * 目的は**偏差の平均**をとること\n",
    "                * 偏差そのままでは左右のつり合いが取れるところが平均値なので常に0になってしまう\n",
    "                    * なので、マイナスを取って(**絶対値にして**)平均を取ると平均偏差が求まる\n",
    "                * 平均偏差はあまり使われない\n",
    "                    * 実際の計算で絶対値は場合分けが必要になるため\n",
    "                        * 標準偏差の方は場合分けがいらないため、計算機が行う計算としては簡単\n",
    "                    * 損失関数の計算方法により差が出る事による\n",
    "                        * 平均偏差のようにずれの絶対値をとる\n",
    "                            * おおよそ平均偏差が最小となるような代表値はデータの中央値\n",
    "                        * 標準偏差のようにずれの二乗を計算する\n",
    "                            * おおよそ標準偏差が最小となるような代表値はデータの**平均値**\n",
    "                    * 参考\n",
    "                        * http://webbeginner.hatenablog.com/entry/2016/05/25/102357\n",
    "            * 標準偏差\n",
    "                * $ \\sigma = \\sqrt{ \\frac{1}{N}\\sum^{N}_{i=1} (x_{i} - \\overline{x})^2 } $\n",
    "                * 平均偏差は平均値からの差(偏差の平均)を**長さ**で表現\n",
    "                * 標準偏差は平均値からの差(偏差の平均)を**面積**で求めたもののルートを取って長さに戻して表現\n",
    "                    * マイナスを取って(**二乗して**)平均を取る (分散)\n",
    "                    * その後ルートを取ると標準偏差が求まる\n",
    "        * 分散\n",
    "            * $ \\frac{1}{N}\\sum^{N}_{i=1} (x_{i} - \\overline{x})^2 $\n",
    "                * 標準偏差のルートを取る前の状態\n",
    "                * 正方形の面積の状態\n",
    "        * 変動係数\n",
    "            * $ CV = \\frac{\\sigma}{\\overline{x}}$\n",
    "            * 標準偏差を平均値で割った値のこと\n",
    "            * 単位の異なるデータのばらつきや、平均値に対するデータとばらつきの関係を相対的に評価する際に用いる単位を持たない（＝無次元の）数値\n",
    "* 相関係数\n",
    "    * $ \\gamma = \\frac{ \\frac{1}{n}\\sum^{n}_{i=1} (x_{i} - \\overline{x})(y_{i} - \\overline{y}) }{\\sqrt{ \\frac{1}{n}\\sum^{n}_{i=1} (x_{i} - \\overline{x})^2 } \\sqrt{ \\frac{1}{n}\\sum^{n}_{i=1} (y_{i} - \\overline{y})^2 }}$\n",
    "    * 2つの値の関係の強さを示す数値\n",
    "        * 相関係数の値\n",
    "            * 1  : 2つの値が完全に依存関係にあり、片方が増えるともう片方も増える\n",
    "            * 0  : 2つの値に依存関係なし\n",
    "            * -1 : 2つの値が完全に依存関係にあり、片方が増えるともう片方は減る\n",
    "    * 共分散\n",
    "        * $ \\frac{1}{n}\\sum^{n}_{i=1} (x_{i} - \\overline{x})(y_{i} - \\overline{y}) $\n",
    "        * 相関係数の分子の部分\n",
    "        * $(x_{i} - \\overline{x}) $ は横軸の平均からの距離(偏差)平均より小さいところはマイナスになる\n",
    "        * $(y_{i} - \\overline{y}) $ は縦軸の平均からの距離(偏差)平均より小さいところはマイナスになる\n",
    "    * 「相関」は「因果関係」は別の概念\n",
    "        * 「アイスクリームの売り上げが伸びると水死者も増える」\n",
    "            * 共に夏に多い出来事というだけで、アイスクリームの売り上げに水死者数が関係しているわけではない\n",
    "            * **因果関係は統計学の範疇外**\n",
    "                * ドメイン知識で判断する\n",
    "* 標本調査\n",
    "    * サンプル(標本)から全体(母集団)を推測する\n",
    "* 推測"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.1"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
